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摘 要 : 针对 数据 库 用 户 行为 异常 导致 数据 库 泄露 问题 ， 提 出 了 一 种 基于 K-means 和 naive Bayes 算法 的 数据 库 用 
户 异 常 检测 方法 。 首 先 ， 利 用 数据 库 历 史 审 计 上 日 志 中 用 户 的 查询 语句 与 查询 结果 ， 采 用 开 -means 聚 类 方法 得 到 用 户 
的 分 组 ; 然后 , 使 用 naive Bayes 分 类 算法 构造 用 户 异 常 检测 模型 。 与 单独 使 用 naive Bayes 分 类 法 构造 的 模型 相 比 ， 


在 数据 预 处 理 时 精简 


了 用 户 行为 轮廓 的 表示 方法 ,降低 了 计算 宛 余 , 减少 了 81% 的 训练 时 间 ; 利用 KK-means 聚 类 方 


法 得 到 用 户 组 别 ， 使 检测 的 精确 率 提高 了 7.06%，Fl 值 提 高 了 3.33%。 实 验证 明 ， 所 提 方 法 大 幅 降低 训练 时 间 ， 取 


得 了 良好 的 检测 效果 。 
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Abstract: Aiming at database leakage caused by abnormal database user behavior, this paper proposed a database user 


anomaly detection method based on K-means and Naive Bayes algorithm. Firstly, the K-means clustering method obtained 


users’ grouping based on the user’s query statements and query results in the database historical audit logs; then, the Naive 


Bayes classification algorithm constructed the user anomaly detection model. Compared with the model constructed by 


Naive Bayes classification alone, the simplified representation of user behavior profile reduces computational redundancy 


and reduces training time by 81%. Applying K-means clustering method to obtaining users’ grouping improves the detection 


accuracy by 7.06% and the Fl value by 3.33%. Experiments show that the proposed method greatly reduces the training 


time and achieves better detection results. 
Key words: database; user behavior; anomaly detection; K-means clustering; naive Bayes classification 


引言 


Andersonl1 在 1980 年 首次 提出 了 入 侵 检测 的 概念 ， 引 发 


naive Bayes 对 特征 的 相关 性 和 重要 
同类 别 的 特征 构造 C4.5 决策 树 对 异常 数 


网 络 数据 使 用 K-means 聚 类 得 到 异常 数据 的 类 别 ， 
性 进行 排序 ， 
局 进行 分 类 检测 。 这 
种 方法 充分 利用 了 每 个 分 类 器 的 特点 ， 提 高 了 系统 异常 检测 


利用 
是 取 不 


从 中 | 


了 入 侵 检测 系统 的 研究 。 入 侵 检测 技术 分 为 异常 检测 和 误 用 


的 ; 


住 确 率 。Karami 等 人 四 在 K-means 聚 类 的 基础 上 加 入 了 


检测 : 异常 检测 技术 先 定义 “正常 情况 ”下 的 观测 数据 ， 通 过 
秆 比 新 生成 的 数据 与 正常 数据 的 偏差 得 出 系统 是 否 有 被 攻击 
的 迹象 ， 误 用 检测 技术 则 是 通过 收集 异常 数据 将 之 归纳 为 一 
个 模型 ， 符 合 此 模型 的 数据 会 被 判定 为 异常 。 近 年 来 对 异常 
检测 技术 的 而 Qiaona 等 人 _ 23 整合 了 网 络 中 
不 同 来 源 的 用 竺 征 提取 构造 异常 检测 器 ; 
Stanislav 等 人 络 传输 中 数据 包 的 信息 作为 特征 ; 结果 的 全 局 最 优 。Kreimel 等 人 [1 通过 分 析 
Ruan Xin 等 人 59 对 社交 网 络 中 的 用 户 行 为 进行 风险 评估 。 数据 的 特征 计算 出 异常 值 的 范围 
K-means 聚 类 和 mnaive Bayes 分 类 在 异常 检测 领域 得 到 了 Naive Bayes 分 类 模型 .页 凡 等 人 03 针 对 网 络 数 ] 
广泛 应 用 。Shin 等 人 中 使 用 K-means 聚 类 得 到 网 络 系统 的 正 ， 击 类 型 ， 在 各 个 类 型 相关 性 最 大 的 维度 使 用 分 


PSO (粒子 群 优化 ) 算法， 利用 PSO 的 全 
优 初始 聚 类 中 心 点 , 使 用 KK-means 聚 类 则 可 以 
部 最 优 解 ， 二 者 相 结合 提高 了 系统 的 异常 检 疯 
人 0 采用 了 遗传 K-means 算法 作为 移动 自 组 
的 异常 检测 方法 ， 将 遗传 算法 与 人 -means 相 


> 


网 


上 


[a 


T 


常 状态 与 异常 点 ， 根 据 不 同 状态 间 的 关系 构造 Markov 概率 ” 法 ,通过 提高 对 每 种 攻击 的 检测 率 提高 了 整体 的 
模型 对 网 


I 络 状态 进行 概率 评估 与 预 判 。Louvieris 等 人 四 先 对 
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络 测评 技术 重点 实验 室 2018 开放 课题 


局 搜索 能 力 找 出 最 
避免 PSO 的 
1 率 。 李 洪 成 等 


局 


(MANET) 


结合 可 实现 聚 类 
言 息 物 理 网 络 
， 利 用 异常 数据 的 特征 训练 
居中 的 不 同 攻 
层 K-means 算 
异常 检测 率 。 
以 上 这 些 方法 主要 对 网 络 中 的 数据 进行 挖掘 和 分 析 ， 不 能 直 
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接 用 于 数据 库 的 用 户 异 常 检测 。 c) 根 据 簇 中 对 象 的 均值 , 将 每 个 对 象 分 配 到 最 相似 的 簇 ; 
d) 更 新 徐 均 值 ， 即 重新 计算 每 个 簇 中 对 象 的 均值 ; 

1 ”相关 工作 e) until 目标 函数 收敛 ; 

为 了 保证 数据 库 中 数据 的 安全 可 靠 和 正确 有 效 ， 一 些 学 K-means 聚 类 算法 的 局 限 性 在 于 数据 初始 化 ， 聚 类 中 心 
者 03-05 对 数据 库 的 访问 权限 控制 方法 进行 了 改进 ， 使 权限 控 ”初始 值 的 选择 会 影响 最 终 的 聚 类 结果 。 对 此 ， 本 文 进行 了 多 
制 策略 能 够 解决 更 加 复杂 的 实际 应 用 问题 。 这 类 方法 可 以 抵 ” 次 实验 ， 得 到 不 同 初 始 值 情况 下 的 聚 类 结果 ， 比 较 各 结果 的 
御 一 部 分 外 部 攻击 ， 但 是 不 能 检测 出 来 自 内 部 用 户 的 攻击 和 均值 方差 ， 取 最 小 方差 的 聚 类 模型 作为 用 户 分 组 结果 。 
恶意 用 户 的 伪装 攻击 。 2.2 Naive Bayes 算法 

Ashish 等 人 09 基 于 企业 数据 库 管 理 系统 的 结构 ， 提 出 了 设 输入 空间 xsR" 为 n 维 向 量 的 集合 ， 输 出 空间 为 类 标 
一 种 针对 数据 库 的 异常 检测 模型 。 该 文献 分 别 研究 了 两 种 不 记 集 合 且 {czcz...cx}。 输 入 为 特征 向 量 xeEa， 输 出 为 类 标记 
同 场景 下 使 用 的 异常 检测 方法 : 在 包含 用 户 分 组 结构 的 数据 。 yeEp。 匀 是 定义 在 输入 空间 a 上 的 随机 向 量 ， 了 是 定义 在 输 
库 管 理 系统 中 使 用 Naive Bayes 分 类 法 来 构造 异常 检测 模型 出 空间 上 的 随机 变量 。P(X,) 是 和 了 的 联合 概率 分 布 。 
在 无 用 户 分 组 结构 时 采用 KK-means 等 聚 类 算法 先 对 用 户 进行 训练 数据 集 7={ x17),(x22))…s(XNyN)} 由 PFW 独立 同 分 布 
分 组 ， 再 利用 离 群 值 检测 法 构造 异常 检测 模型 。 这 篇 文献 提 ”产生 P0。 
出 的 异常 检测 方法 能 够 检测 出 大 部 分 的 用 户 异 常 ， 但 是 由 于 Naive Bayes 算法 通过 训练 数据 集 学 习 联 合 概率 分 布 
只 考虑 了 用 户 提 交 查 询 语句 的 语法 结构 ， 并 不 能 检测 出 用 户 ” P(X,)。 具 体 的 ， 学 习 以 下 先 验 概率 分 布 及 条 件 概 率 分 布 。 

文献 [17] 与 文献 [16] 中 的 方法 作对 比 , 将 查询 语句 的 返 世 P(Y =c),k=1,2,...,K (2) 
结果 作为 用 户 行为 特征 ， 分 别 构造 了 naive Bayes、 决 策 树 条 件 概率 分 布 为 
(decision tree) 、 支 持 向 量 机 (SVM) 三 种 分 类 器 。 实 验 表 P(X=x|Y=c)=P(X® =x0,...,X" =x" |Y=c;) 
明 将 查询 结果 作为 用 户 行为 特征 可 以 有 效 地 检测 出 用 户 的 伪 k=12,...,K (G3) 
装 异常 。 但 是 ， 由 于 查询 结果 往往 数目 比较 庞大 ， 利 用 其 统 于 是 学 习 到 联合 概率 分 布 P(X,7)。 
计 特 征 来 构造 用 户 模型 花费 的 时 间 较 长 ， 训 练 效 率 较 低 。 Naive Bayes 算法 对 条 件 概率 分 布 作 了 条 件 独 立 性 假设 

rid 和 人 ”将 查询 语句 的 语法 结构 和 查询 结果 结合 P(X =x|Y=6)=T P(X0=x017=6) (4) 
在 一 起 作为 用 户 行为 特征 , 分 别 构造 了 naive Bayes 与 多 标签 周 
分 类 器 。 这 种 方法 并 没有 计算 返回 结果 的 各 项 统计 特征 ， 而 算法 的 具体 过 程 为 : 对 给 定 的 输入 x， 通 过 学 习 到 的 模 
是 将 结果 的 数目 占 总 查询 表 的 比例 作为 一 项 特征 加 入 到 用 户 型 计算 后 验 概率 分 布 P( 坟 cx|X=x), 将 后 验 概率 最 大 的 类 作为 
行为 轮廓 中 ， 这 样 既 考 虑 了 查询 的 语义 语法 ， 又 没有 增加 过 ” x 的 类 输出 。 后 验 概率 计算 根据 贝 叶 斯 定理 进行 : 
多 的 计算 量 ， 检 测 效 果 也 有 所 提升 。 但 是 ， 在 使 用 仿真 数据 PY 0 |X-D- Y= 0) PY 0) 
集 时 没有 根据 具体 的 数据 库 查 询 语句 修改 用 户 轮 廓 的 构建 方 >.P(X=x|lY=c)P(Y =0) 
法 ， 计 算 空 间 存 在 元 余 ， 增 加 了 计算 成 本 :， 此外， 在 对 用 户 k=1,2,..,K (5) 
进行 分 组 时 ， 采 用 了 定义 的 方法 ， 不 能 准确 地 对 用 户 的 行为 将 式 (4) 代 入 式 (5) 有 
进行 分 组 ， 可 能 会 造成 一 定 的 误差 。 Be ) 首 zz 本 

针对 文献 [18] 检 测 方法 的 不 足 ， 本 文 提出 一 种 改进 方法 Be 3 四 四 
一 一 将 构成 用 户 轮廓 的 向 量 表示 方法 精简 为 针对 该 数据 库 查 ,PY=c)T P(X =x0]Y=c) 
询 方 式 的 结构 ， 减 少 计算 匈 余 ; 同时 ， 使 用 K-means 聚 类 的 加 
方法 对 用 户 进 行 分 组 ， 使 用 户 的 组 别 更 加 符合 其 行为 特征 ， 大 =1 2…, 天 (6) 
提高 了 整体 的 检测 率 。 这 是 naive Bayes 分 类 (NBC) 的 基本 公式 。 于是, naive 
2 ”相关 算法 Bayes 分 类 器 可 表示 为 

y=f(x)=argmax P(Y =c |X =x) 

2.1 K-means 算法 - 


假设 数据 集 DD 包 含 n 个 欧 氏 空间 的 对 象 。 划分 方法 把 D 


中 的 对 象 分 配 到 天 个 能 C1,.…,Cx 中 , 使 得 对 于 1<i,j<K, CicD 


量 ， 使 得 簇 内 对 
就 是 说 ， 该 目标 
9] 


且 CiNG=@B。 用 一 个 目标 函数 来 评估 划分 质 
象 相互 相似 ， 而 与 其 他 艇 内 的 对 象 相 异 。 也 
函数 以 簇 内 高 相似 性 和 簇 间 低 相似 性 为 目标 
基于 形 心 的 划分 技术 使 用 簇 ci 的 形 心 代表 该 徐 。 从 概念 


上 讲 


， 簇 的 


之 差 
的 欧 


可 以 


心 是 它 的 中 心 ; 


氏 距 离 。 


P 


一 


Y=c),k=1,2 


其 中 ，E 是 数据 集 
点 ， 表 示 给 定 的 数据 对 象 ; 


K-means 算法 过 程 如 


攻 口 


下 : 


点 。 对 象 pe Ci 与 该 艇 的 代表 ci 
dist(p,c) 度 量 ,其 中 dist(x,y) 是 两 个 点 x 和 yy 之 间 
标 函 数 的 定义 如 下 : 

,Kk 


FP 所 有 对 象 的 误 


(1) 


差 平方 和 ; p 是 空间 中 的 
ci 是 簇 Ci 的 形 心 。 


a) 从 刀 中 任意 选择 天 个 对 象 作 为 初始 簇 中 心 ; 


b) repeat 


P(Y=c )[ [P(X =xD)|Y=c.,) 
j=l 


= 水 
DP(Y=c) I [P(X =x2l7=co) Wy 


3 ”基于 K-means 和 naive Bayes 算法 的 异常 检测 
系统 

3.1 系统 结构 
系统 的 整体 结构 如 图 1 所 示 。 系 统 的 工作 流程 分 为 两 个 


阶段 ， 分 别 为 训练 和 测试 阶段 。 
训练 阶段 步骤 如 下 : 


a) 对 历史 审计 日 志 进 行 预 处 理 , 去 除 系统 日 志 后 得 到 用 
户 查 询 数 据 ; 

b) 提取 查询 数据 的 特征 ， 得 到 特征 向 量 ， 即 为 用 户 的 行 
为 轮廓 ; 
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c) 利用 K-means 算法 对 月 


用 户 的 组 别 ; 
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户 的 行为 轮廓 进行 聚 类 , 得 到 


d) 使 用 Naive Bayes 分 类 法 对 训练 数据 进行 训练 ， 得 到 


异常 检测 模型 ; 
测试 阶段 步 又 如 下 : 
a) 对 用 户 提交 的 查询 进 
b) 提取 查询 数据 的 特征 ， 


下 ， 


行 预 处 理 ; 
得 到 特征 向 量 ; 


c) 将 用 户 的 特征 向 量 输入 异常 检测 模型 中 , 得 到 检测 结 


果 ; 
d) 将 检测 结果 输入 响应 器 中 , 根据 预先 设 定 的 响应 策略 
发 出 响应 。 
查询 结果 | 人 
用 户 ”数据库 | | 
SQL 语句 \ VY 
SQL 语 句 
响应 行为 + 结果 
响应 策略 一 >” 响应 器 一 - “特征 提取 
检测 结果 
向 量 V 
人 用 户 行为 党 检 
日 讲 MA a| 轮廓 一 条] 异常 检测 
图 1 系统 结构 
Fig. 1 System architecture 


3.2 数据 表示 


使 用 一 个 向 量 K(C,T,4,R) 来 表示 一 条 用 户 提 交 的 查询 。 


含 少量 


从 N+1 开始 表示 。 
组 来 表示 ， 数 组 
包含 表 中 的 某 个 
RR 为 查询 结果 所 
的 总 行 数 之 比 。 严 向 量 的 示例 丸 
列 为 查询 语句 的 说 
品 表 〈products ) 如 


网 ， 其 中 用 


其 中 ,C 为 语句 的 命令 类 型 , 7 为 查询 的 表格 ,用 0 一 N 表示。 
若 数据 库 中 仅 包 


含 少量 的 交叉 查询 ， 为 了 减少 向 量 的 存储 空 
间 , 将 几 种 交叉 查询 检索 的 表 中 的 属性 重新 整合 为 几 个 新 表 ， 
4 为 查询 语句 检索 的 属性 信息 


个 数 


的 长 度 为 所 有 表 长 度 中 的 最 大 值 ， 当 查询 中 
盟 性 时 ， 将 该 属性 所 在 位 设 为 1， 否则 为 0。 
的 比例 ， 计 算 方 式 为 查询 结果 的 行 数 与 表 


表 3 向量 表示 


Table 3 Vector representation 
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Query Q(C,Pr,Pa, Sr) V(C,T,A,R) 
SELECT * (‘SELECT’, [1,0], (‘SELECT’, 0, 
FROM Clients [[0,0,1,0],[0,0,0,0]], [0,0,1,0], 
WHERE c_ID=3; [snul]) 0.25) 
SELECT * (‘SELECT’, [0,1], (‘SELECT’, 1, 
FROM Products [[0,0,0,0],[1,1,0,0]], [1,1,0,0], 


WHERE price<5; [nullm7]) 
4 ”实验 结果 与 分 析 
4.1 数据 集 及 评估 方法 
由 于 真实 数据 库 的 后 台 审 计 日 志 不 易 获 取 ， 本 次 实验 采 
用 TPC-C 数据 库 作 为 实验 数据 集 。 TPC(Transaction 
Processing Performance Council) 事务 处 理性 外 是 一 个 评 
介 大 型 数据 库 系 统 软 硬件 性 能 的 非 僵 利 性 组 织 。TPC 制定 的 


规范 在 数据 库 异常 检测 领域 已 有 多 次 应 用 


是 TPC 协会 制定 的 专门 针对 联机 交易 处 到 
的 规范 。TPC-C 测试 用 到 的 模型 是 一 个 大 型 的 商品 批发 销售 


要 处 理 的 交易 事务 主要 分 为 以 


发 货 、 订 单 状态 查询 、 


为 了 对 实验 结 
精确 率 (precisio 
正 的 正常 样本 的 比 导 


其 定义 如 下 : 


加 
TP+FP 


[182122] 。 TPC-CI23] 
系统 COLITP 系统 ) 


公司 ， 它 拥有 若干 个 分 布 在 不 同 区 域 的 商品 仓库 。 该 系统 需 
五 种 : 新 订单 、 支 付 操作 、 
库存 状态 查询 等 。 
进行 评估 ， 引 入 以 下 三 个 讨 
n): 反映 了 被 分 类 器 判 


E 价 指标 : 


定 的 正常 样本 中 真 


(8) 


召回 率 (recall)， 也 称 为 true positive rate， 反 映 了 被 正确 


Fl 值 : 模型 精确 率 和 召回 率 的 一 种 加 权 3 


ID 表 3 中 的 第 三 列 所 示 。 第 
户 表 (client) 如 表 1 所 示 ， 产 
表 2 所 示 。 第 二 列 为 O 向 量 081， 分 别 包 
含 四 个 属性 : 命令 类 型 (C) 、 检 索 表 向 量 (Pr ) ， 检 索 属 
性 (Pa) ， 检 索 信 息 的 比例 (Sr ) 。 使 用 玫 向 量 表示 交叉 查 
询 较 少 的 用 户 查 询 ， 与 向 量 OQ 相 比 节省 了 一 半 的 存储 空间 ， 


判定 的 正常 样本 


5 总 的 正常 样本 的 比重 ， 定 义 如 下 : 


R= 
TP+FN 


_ 2PR 
P+R 
sR 中 ; 
7P 一 将 正常 样本 预测 为 正常 类 数 ; 
FN 一 将 正常 样本 预测 为 异常 类 数 ; 
FP 一 将 异常 样本 预测 为 正常 类 数 ; 
TN 一 将 异常 样本 预测 为 异常 类 数 。 
4.2 ” 预 处 理 
在 Linux 系统 中 ,利用 tpcc-mysql 工 


构建 TPC-C 数据 


可 以 有 效 地 降低 异常 检测 模型 的 训练 时 间 。 库 ， 创 建 表 ， 模 拟 出 商品 批发 销售 公司 的 五 种 交易 事务 。 
表 1 用 户 表 tpcc-mysql 是 由 percona 公司 基于 TPC-C 衍生 出 来 的 产品 ， 

Table 1 Clients’ table 专门 用 于 构建 TPC-C 的 标准 数据 库 。 交 易 模拟 完成 后 ， 利 用 

cD c_name Mysql 的 日 志 功 能 得 到 91121 条 审计 日 志 。 日 志 中 
1 cl 的 系统 命令 等 与 用 户 交 易 无 关 的 数据 得 到 86924 条 用 户 查询 。 
2 2 使 用 3.2 小 节 中 的 数据 表示 方法 将 用 户 的 查询 转换 为 六 向 量 ， 

， 3 作为 用 户 行为 的 特征 向 量 。 
— 名 4.3 实验 结果 

表 2 产品 表 使 用 K-means 算法 对 经 过 预 处 理 的 用 户 特 征 向 量 进行 聚 
生生 类 得 到 用 户 的 组 别 。 根 据 TPC-C 数据 库 模拟 的 场景 ,将 设 

p_D PHASE 为 2， 分 别 代表 数据 库 中 的 两 个 组 别 一 客户 与 工作 人 员 ，。 
. ! 由 于 K-means 算法 的 局 限 性 ， 改 变 初始 簇 中 心 对 
2 2 K-means 算法 进行 多 次 实验 。 如 图 2 所 示 ， 不 同 的 随机 种 子 
， 。 数目 会 产生 不 同 的 初始 类 簇 中 心 点 ， 导 致 最 后 的 聚 类 结果 发 


(9) 


F 均 ,定义 如 下 : 


(10) 


生变 化 。 由 图 可 


知 最 小 的 平方 误差 和 为 108849， 


因此 选取 此 
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聚 类 模型 作为 用 户 分 组 的 依据 。 [3] Sreyasee D B, Yuan Junsong, Zhang Jiagi, et al. Context-aware 
od graph-based analysis for detecting anomalous activities [Cl]//Proc of 
0 IEEE International Conference on Multimedia and Expo. Washington 
0 DC: IEEE Computer Society, 2017: 1021-1026. 
榜 160060 [4] Stanislav P, Travis A. Industrial control system network intrusion 
i detection by telemetry analysis [J]. IEEE Trans on Dependable and 
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100000 十 
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随机 种 子 数 


图 2 初始 聚 类 中 心 点 对 聚 类 效果 的 影响 


Fig.2 Influence of initial cluster center points on clustering effect 


K-means 聚 类 算法 对 用 户 进 行 分 组 后 ， 将 用 户 组 别 作为 


标签 ， 使 用 naive Bayes 分 类 算法 训练 分 类 器 。 


训练 时 间 与 训练 数据 量 如 表 4 所 示 。 本 文 实验 使 用 的 数 


据 量 是 文献 [18] 中 数据 集 的 9.39 倍 , 而 训练 时 间 则 是 1.78 倍 。 
去 除了 向 量 的 元 余 之 后 ， 训 练 时 间 降 低 了 81%。 


表 4 分 类 器 的 训练 时 间 与 训练 数据 量 


Table 4 Training time of classifiers and training data size 


数据 量 (条 记录 ) 训练 时 间 /s 
K-means+NBC 69.5k LS1 
NBC08] 7.4k 0.85 


naive Bayes 分 类 算法 的 结果 作对 比 ， 发 现 召 


如 表 5 所 示 ， 将 本 实验 的 结果 与 文献 [18] 中 单独 使 用 
率 降低 了 


I 


0.72%, 而 精确 率 提升 了 7.06% ,总 体 来 看 ,Fl 值 提升 了 3.33%。 
精确 率 的 提升 表明 ， 使 用 K-means 聚 类 使 得 用 户 的 分 组 更 加 
符合 其 行为 特征 ， 因 此 对 异常 用 户 的 识别 能 力 有 所 增强 ， 而 
召回 率 的 降低 表明 , 精简 的 用 户 行为 特征 向 量 虽然 降低 了 81% 


的 训练 时 间 , 却 弱化 了 向 量 对 正常 用 户 特 征 


为 的 表征 能 力 ， 


姑 此 对 正常 用 户 的 识别 有 所 降低 。 作 为 两 ] 


i 评估 标准 的 加 权 


中 


IE 一 


平均 ，F1 值 提高 了 3.33%， 且 本 次 实验 使 用 的 数据 量 是 文献 
18] 中 的 9.39 倍 ， 这 表明 在 增 大 数据 量 的 情况 下 ， 本 文 使 用 
的 方法 检测 效果 更 好 ， 重 棒 性 更 高 。 


二 


表 5 分 类 器 结果 对 比 


Table 5 Result comparison of classifiers 


precision recall Fl-score 

K-means+NBC 97.17 97.16 97.16 

NBC03I 90.11 97.88 93.83 
5 ”结束 语 

数据 库 泄露 问题 日 益 严 峻 。 为 了 减少 数据 库 泄露 事件 的 
发 生 , 本 文 提出 了 一 种 基于 K-means 聚 类 和 naive Bayes 分 类 
的 用 户 异常 检测 模型 。 实 验证 明 ， 本 文 的 模型 训练 时 间 短 ， 
精确 度 高 ， 具 有 一 定 的 鲁 棒 性 。 在 接 下 来 的 研究 中 ， 将 继续 
探索 其 他 的 模型 构造 方法 ， 以 期 获得 更 好 的 检测 效果 。 
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